Offre de Formation DATA ENGINEERING | Titre RNCP niveau 7 - Bac +5 | Co-certifiée école MINES Paris avec Liora

Le plus de la formation

Plateforme Saas,Format hybride,Learning by doing:

Localité

En ligne

Vous pouvez suivre cette formation depuis chez vous ou depuis n’importe quel endroit à distance.

En présentiel

Découvrez les localités disponibles pour suivre cette formation en présentiel.

Certifications

Datadock

Qualiopi

Pré-requis

Niveau BAC +3

Appétence maths & stats, algèbre linéaire, expérience pro OU tests évaluation ET entretien data Scientist (formation continue)

Objectifs

Le Data Engineer ou Expert Big Data est le monsieur IT des équipes Data, il gère l'architecture de la donnée et mets en prod les modèles conçus par le data scientist.

En suivant ce cursus, vous aurez toutes les clefs pour y parvenir. Un programme exhaustif qui fera de vous un Data Engineer opérationnel à l'aise avec toutes les technos utilisées sur le marché y compris sur tous les outils cloud.

Informations pratiques:

- Parcours de formation Hybride mêlant sessions de coaching en visio conférence et autoformation sur notre plateforme full saas prete à coder.

- Nos professeurs sont également concepteur du programme pour garantir une cohérence et un suivi homogène tout au long du parcours.

- Des séances de coaching personnelle sont disponible chaque semaine pour les apprenants

- Chaque module est sanctionné un examen, corrigé à la main, pour validation

- Un projet fil-rouge, que vous allez devoir établir à partir de rien, représente environ 1/3 du temps alloué à votre formation: chaque semaine un point sera fait avec votre responsable de cohorte pour gérer l’avancement et la bonne compréhension des méthodes à mettre en pratique

Programme

Divisé en 7 blocs, le cursus deData Engineer, accessible en format intensif de 11 semaines ou continu de 9 mois, saura apporter toutes les connaissances et compétences nécessaires au métier sous-jacent.

1. Programmation

Bash
- Présentation des Systèmes Linux
- Prise en main et utilisation d’un terminal
- Mise en place de scripts Bash

Python & Python orientée objet
- Maitrise des variables et des types
- Présentation des divers opérateurs et de leurs applications
- Introduction au concept de boucles et aux structures de contrôle
- Définition d'une fonction sur Python et de leurs applications
- Initiation aux classes et modules
- Préparation de la mise en place, du paramétrage et de l'enchainement de Décorateurs
- Différenciation et implémentation du multithreading et du multiprocessing sur Python
- Application d'une fonction asynchrone sur Python
- Introduction aux annotations et utilisation de la bibliothèque MyPy

2. Base de données

SQL
- Introduction aux bases de données relationnelles
- Présentation de SQL Alchemy et applications
- Initiation aux bases du langage SQL
- Approndissement de SQL et de ses applications

MongoDB
- Introduction au base de données NoSQL (base de données orientée document, colonne, graphe)
- Présentation de MongoDB
- Familiarisation avec la syntaxe des requêtes MongoDB

Elasticsearch
- Description d'un moteur de recherche
- Présentation d'un index et mode d'emploi
- Mise au point d'un Mapping
- Découverte des différentes opérations
- Prétraitement des données avec Ingest Node
- Extraction des données avec les Text Analyzer

Neo4j
- Introduction aux bases de données orientées graphe
- Mise en place d'un premier graphe
- Initiation au langage de requête Cypher
- Chargement de données dans Neo4J
- Utilisation d'un client Python pour Neo4J

3. Data Science

Statistique
- Exploration des variables numériques
- Exploration des variables catégorielles
- Étude des relations entre les variables

Machine Learning
- Prétraitement de données
- Sélection et optimisation d'un algorithme de Machine Learning
- Définition et application d'un algorithme de régression
- Définition et application d'un algorithme de classification
- Développement d'algorithmes de clustering
- Introduction au PCA

DataViz avec Matplotlib
- Présentation des différents types de graphes
Graphiques en barres (Barplots)
Nuages de points (Scatter plots)
Histogrammes
Boîtes à Moustaches (Box Plots) et Camemberts (Pie Plots)

4. Big Data Volume

Handoop & Hive
- Fonctionnement de Hadoop
- Installation et configuration de Hadoop
- Traitement et stockage des données avec HDFS
- Présentation de MapReduce
- Utilisation de Hadoop Streaming pour exécuter un fichier Map/Reduce
- Mise en place d'entrepôts de données
- Présentation du fonctionnement de Hive

Hbase
- Présentation des bases de données orientée colonne
- Association de Hadoop (HDFS) et de Hbase
- Requêtes de données
- Modification des données par Python et happybase

Spark
- Distinction entre Spark et Hadoop
- Introduction au calclul distribué avec Spark
- Présentation des APIs RDD et Dataframe de Spark
- Pipeline de processing de donnée distribuée avec pyspark
- Machine Learning distribué avec Spark MLLib

5. CI/CD

Git
- Introduction au système de gestion de version Git
- Initialisation d'un dépôt Git
- Présentation et approfondissement des concepts git :
Branches
Tag
Merge

Github
- Découverte de la plateforme Github pour le travail collaboratif sur Git
- Présentation des fonctionnalités majeures de GitHub :
Fork
Pull Request
Issues
- Partager ses modifications avec pull et push
- Participation à l'amélioration de projet public
- Présentation des principaux workflows git

Quality Assurance
- Mise en place de tests unitaires avec Pytest
- Introduction aux Tests d'intégration et leurs fonctions
- Présentation des avantages des tests : gain de temps, lisibilité, qualité et amélioration de code

6. Big Data Vitesse

Architecture de streaming
- Gestion de flux de données en temps réel
- Conception d'une architecture Big Data hybride (batch et temps réel)
- Mise en place d'une architecture Lambda

Kafka
- Présentation de la plateforme de streaming distribuée Kafka
Architecture
Avantages
- Gestion des paramétrages de Producers
Clef de partitionnement
- Maitrise des paramétrages de Consumers
Consumer group

Spark Streaming
- Prise en main de Spark Streaming pour le traitement de données temps réel
- Présentation du minibatch streaming nécessaire pour le fonctionnement de Spark Streaming

7. Automatisation et déploiement

APIs
- Introduction aux APIs et découverte des architectures micro services
- Présentation des différentses méthodes HTTP et de leurs fonctions
- Utilisation des librairies FastAPI et Flask pour développer des API RESTful
- Documentation d'une API avec la spécification OpenAPI
- Gestion des erreurs et des performances d'une API

Aiflow
- Découverte des concepts d'Airflow:
Présentation des principe de l'orchestration et utilité
Graphe orienté acycliques ou DAG (Directed Acyclic Graphs)
Opérateurs
- Gestion de tâches par le biais d'Operators spécifiques
- Monitoring des DAGs via l'interface graphique d'Airflow

Docker
- Présentation de la conteneurisation et de son utilité par rapport à la virtualisation
- Initiation au fonctionnement de Docker
- Manipulation des images et des conteneurs
- Communication avec les conteneurs
- Persistance des données grâce aux volumes
- Création d'une image Docker via un Dockerfile
- Partage des images sur le Dockerhub
- Utilisation de dockercompose

Kubernetes
- Déployer et gérer des conteneurs

+ Le projet fil-rouge

La formation en vidéo

Qu'est-ce qu'un Data Engineer ?

Découvrez notre cursus Data Engineer

Formation diplômante

inscrite au RNCP

Financement facilité

CPF, OPCA, etc.

Professeur dédié

5 jours sur 7

Ce qu'ils pensent de cette formation

Centre

À propos du centre Liora

Chez Liora, nous révélons le potentiel technologique de celles et ceux qui façonnent le monde de demain.

Face à une transformation technologique sans précédent, nous croyons que chacun doit pouvoir trouver sa place dans la révolution en cours. Notre mission est d’aider les talents d’aujourd’hui et de demain à prendre leur avenir en main, à développer des compétences utiles tout au long de leur vie et à contribuer à un monde meilleur.

Nous accompagnons nos apprenants à travers un écosystème d’apprentissage hybride, centré sur l’humain, qui allie innovation technologique et formation d’excellence. Notre approche pédagogique est résolument pratique, flexible et inclusive, pensée pour s’adapter aux parcours, aux rythmes et aux ambitions de chacun.

Nos formations couvrent quatre grands secteurs technologiques d’excellence : Data & IA, Cloud & Développement, Cybersécurité et Digital, afin de répondre aux besoins concrets du marché et aux évolutions constantes des métiers de la tech.

Nous redéfinissons l’éducation au 21? siècle grâce à une pédagogie novatrice, soutenue par des technologies de pointe, des centaines de labs et de machines virtuelles, et un accompagnement à chaque étape du parcours. Notre modèle combine le meilleur du digital et la richesse du contact humain.

Portés par des valeurs fortes partage, excellence, collaboration, flexibilité et ouverture nous construisons une communauté tech inclusive, engagée et tournée vers l’avenir. Reconnus par des partenaires académiques et technologiques de premier plan, nous formons aujourd’hui des milliers d’alumni à travers le monde.

Your future, decoded.

Plus qu’une signature, c’est notre engagement quotidien : décrypter la technologie pour révéler les talents.